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jg 要 : 手绘 草 
目前 基于 GAN 
精细 控制 的 草图 
总 结 。 基 于 对 已 
路 提供 了 线索 。 
关键 词 : 手绘 草 


图 图 像 翻 译 是 计算 机 视觉 领域 充满 挑战 的 课题 ， 在 艺术 设计 和 电子 商务 领域 具有 重要 的 应 用 价值 。 
的 手绘 草图 图 像 翻 译 工作 处 于 起 步 阶 段 ， 文 章 分 析 了 草图 图 像 翻 译 面临 的 挑战 性 问题 ， 从 无 控制 和 
图 像 翻译 两 个 方面 对 基于 GAN 的 草图 图 像 翻 译 研究 工作 进行 分 析 ， 并 对 生成 图 像 的 评估 方法 进行 
有 研究 工作 的 总 结 归纳 ， 对 该 领域 未 来 可 能 的 发 展 趋势 进行 了 展望 ， 为 该 领域 研究 人 员 拓 展 研究 思 


图 ; 图 像 翻 译 ; 生成 式 对 抗 网 络 ; 图 像 合成 ; 解 耦 
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Abstract: Freehand sketch to image translation is a challenging subject in the field of computer vision, and has important 


application value 
infancy. This pap 


in the fields of art design and e-commerce. At present, sketch to image translation based on GAN is in its 
er analyzed the challenging problems on sketch to image translation, and summarized the work based on 


GAN from two aspects of uncontrolled sketch to image translation and finely controlled sketch to image translation. This 


paper also summarized the method of evaluating generative image. Based on the summary of the existing research, this paper 


proposed the possible future development trends in this field, which provides clues for researchers to expand their research 


ideas. 
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对 应 的 图 像 块 ， 再 将 这 些 图 像 块 融合 在 一 起 ， 这 种 方法 的 缺 
点 是 不 能 生成 全 新 的 图 像 。 近 年 来 生成 式 深度 学 习 尤 其 是 生 


重要 艺术 活动 之 一 ， 原 始 人 类 可 以 通 ”成 式 对 抗 网 络 (GAN) 负 的 迅速 发 展 ， 使 得 基于 GAN 上 草图 的 
的 主要 猪 物 。 手 绘 草图 反映 了 人 类 像 翻译 成 为 可 能 。 由 于 手绘 草图 区 别 于 普通 图 像 的 特质 ， 
感知 ， 任 何人 都 可 以 通过 手绘 草图 来 致 目前 基于 GAN 的 手绘 草图 图 像 翻译 面临 着 挑战 性 问题 : 
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表达 自己 的 想法 并 进行 辅助 交流 。 从 古 至 今 ， 手 绘 草图 一 直 H^c. FRE RSMo. WR, SMP AR S 
是 人 类 可 视 化 物体 或 场景 最 直接 快速 的 手段 。 因 此 ， 针 对 手 ”要 矫正 变形 的 笔画 和 增加 更 多 的 细节 ;， 其次， 一 一 对 应 的 草 


绘 草图 的 研究 在 计算 机 视觉 领域 很 受 关注 。 早 期 人 们 对 草图 图 图 像 数 据 较 少 , 从 而 导致 训练 模型 缺乏 足够 的 数据 ;第 三 ， 


了 一 些 新 的 研究 课题 ， 


草图 的 图 像 检 索 等 。 近 年 来 图 像 
KI 


超 分 辩 率 等 研究 成 果 ， 


的 研究 主要 集中 在 草图 识别 、 基 于 草图 的 图 像 检 索 、 基 于 二 手绘 草图 风格 多 样 且 难 以 模仿 ， 导 致使 用 扩充 的 草图 训练 的 
形状 检索 等 领域 ， 随 着 深度 学 习 技术 的 发 展 ， 出 现 ”模型 不 能 在 真实 的 手绘 草图 上 泛 化 。 


如 合成 草图 、 深 度 草 图 哈 希 、 实 例 级 基于 草图 的 图 像 翻译 可 以 在 实际 应 用 场景 中 帮助 用 户 创 
翻译 领域 出 现 了 风格 迁移 和  ” 建 或 设计 新 颖 的 图 像 ， 是 展示 人 们 创造 力 和 交流 想法 的 有 效 
的 图 像 翻译 引起 了 学 术 界 和 ” 途径 之 一 。 在 设计 领域 ， 草 图 图 像 翻 译 可 以 帮助 设计 师 快 速 


U 
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工业 界 的 广泛 关注 。 图 像 翻译 是 指 将 一 种 类 型 的 图 像 转换 成 ”直观 的 可 视 化 设计 产品 。 设 计 师 可 以 通过 彩色 的 线条 或 者 轮 
另 一 种 类 型 的 图 像 ， 本 质 上 是 两 个 不 同 图 像 域 之 间 的 相互 转 ， 廓 内 填充 不 完全 的 彩色 块 为 草图 区 域 指定 颜色 纹理 ， 草 图 番 
换 ， 例 如 冬天 场景 图 像 转换 成 夏天 场景 图 像 ， 语 义 图 像 转换 。 译 系 统 根据 这 些 指导 信息 生成 与 其 风格 相近 真实 图 像 ， 为 设 


成 真实 图 像 ， 草 图 转 成 真实 彩色 图 像 等 。 手 绘 草 图 图 像 翻译 ec” 计 师 提供 有 力 的 设计 参考 。 在 电 商 领 域 ， 草 图 翻译 系统 将 用 
是 指 将 人 类 手绘 风格 的 笔画 稀疏 、 抽 象 并 带 有 一 定 噪 声 的 志 户 绘制 的 需求 产品 草图 翻译 成 真实 的 商品 图 像 ， 一 方面 可 帮 


图 转换 成 既 忠 实 于 草图 所 绘 内 容 又 在 视觉 上 具有 真实 感 的 图 | 助 用 户 有 效 搜索 出 相似 的 线 上 商品 ， 从 而 增强 消费 体验 ; 另 
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像 阅 。 传 统 的 基于 草图 的 图 像 翻译 通过 图 像 检索 实现 P3: 根 ”一 方面 可 为 商家 分 析 用 户 需 求 提供 重要 的 数据 支撑 ， 从 而 有 
据 草 图 给 定 的 对 象 和 背景 ， 从 大 规模 图 像 数据 集中 搜索 与 之 ” 效 促进 线 上 商品 的 成 交 量 。 此 外 ， 手 绘 草图 的 图 像 翻译 在 其 
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他 领域 也 可 大 显 身手 : 从 稀 疏 的 草图 生成 逼真 的 人 类 面部 图 
像 如 图 1 所 示 ， 可 以 帮助 没有 任何 绘画 基础 的 目击 证 人 更 * * * 
好 的 描绘 犯罪 分 子 的 特征 ， 从 而 帮助 公安 机 关 抓 捕 犯 罪 嫌 疑 
As 在 影视 拍摄 领域 ， 编 剧 或 者 导演 可 以 根据 自己 的 想象 给 - | 
制 人 物 角色 草图 ， 通 过 生成 逼真 的 人 脸 图 像 对 比 选择 更 适合 to A Q 
的 演员 ;在 图 像 编辑 领域 ， 可 以 通过 草图 来 编辑 人 的 面部 轮 狼人 了 USI ) 
Bü. SR. WG. PS, AUER CAE CS, — s L 
如 图 2 所 示 。 图 3 手绘 草图 与 自然 照片 对 比 
-— Fig.3 Hand-drawn sketches versus nature photos 
tte, 1.2 成 对 手绘 草图 数据 缺乏 
| | 手绘 草图 图 像 翻译 属于 跨 模 态 转 换 ， 训 练 模型 需要 手 给 
一 =| 草图 和 图 像 两 类 数据 。 表 1 总 结 了 现 有 草图 图 像 翻 译 研究 工 
| 23 和 所 使 用 的 数据 集 ， 其 中 包含 两 种 模 态 的 数据 集 有 Sketchy 
database?!, ShoeV2I9RI ChairV2 辐 ， 其 他 数据 集 只 包含 真实 
FN A 图 像 或 者 草图 。 对 于 不 包含 草图 的 数据 ， 研 究 人 员 采 用 特定 
` - 方法 进行 扩充 ， 草 图 扩充 方法 如 表 2 所 示 ; 只 包含 草图 的 数 
图 1 DeepFaceDrawing 的 草图 翻译 效果 据 采 用 草图 图 像 嵌入 方法 选择 与 收集 的 图 像 最 相近 的 草图 作 
Fig. 1 Sketch to image translation effect of deepfacedrawing 为 数据 扩 充 o 


dl 现 有 草图 图 像 翻 译 工作 使 用 的 数据 集 


Tab.1 Datasets used by existing sketch to image translation works 


数据 集 主题 使 用 数据 集 文献 
Sketchy database”! TAA Vena 2A Eia 12300 a 文献 [1] 
的 75471 个 草 
CelebA!"”! 44 20 万 人 脸 图 像 文献 [11 
Caltech-UCSD 
11.7 千张 鸟 类 图 像 文献 [11 
Birds-200-201103 
WE uds NSAI) 16 千张 汽车 图 像 文献 [11 
图 2 SketchHairSalon 的 草图 翻译 效果 Flickr-Faces-HQ (FFHQ)'"") 7 万 张 肖像 图 像 文献 [15]、[16] 
Fig.2 Sketch to image translation effect of sketchhairsalon curs!" 606 张 人 脸 和 对 应 的 素描 草图 文献 [18 
1 ”手绘 草图 图 像 翻译 的 挑战 CHR AMO am 
从 草图 生成 逼真 的 图 像 并 不 是 一 项 简单 的 任务 ， 合 成 图 CelebA-HQ 数据 集 ?u — 3 万 张 肖像 图 像 文献 [22]、[23] 
像 需要 忠实 于 给 定 的 草图 ， 同 时 保持 真实 性 和 语义 连贯 性 。 COCO Stuff? 91 + stuff 25, 164 千 个 图 像 及 注释 ”文献 [25 
手绘 草图 描绘 了 对 象 的 近似 边界 和 内 部 轮廓 ， 是 一 个 特殊 的 Tuberlin 数据 集 ” 250 个 类 别 ，2 万 张 草民 文献 [25 
数据 域 , 而 真实 图 像 则 精确 的 对 应 对 象 的 边界 并 且 像 素 密集 ， QuickDraw 345 个 类 别 ，5000 万 张 草 文献 [25 
对 此 手绘 草图 到 图 像 的 翻译 是 典型 的 跨 模 态 转换 问题 。 基 于 ShoeV2™ 6648 张 草图 2000 张 图 像 文献 [28 
GANI 的 图 像 翻 译 是 以 数据 驱动 的 ， 训 练 过 程 需要 大 规模 的 Chairv2"" 1297 幅 齐 图 400 Sk 文献 [28 
草图 和 图 像 数据 ， 而 收集 人 类 手绘 草图 难度 大 、 成 本 高 ， 导 SketchyCOCO 17 类 6 万 对 以 上 的 草图 和 图 像 文献 [29 
致 可 直接 使 用 的 草图 数据 较 少 , 这 是 基于 GAN 只 的 手绘 草图 Oxford-102 数据 集 ”102 个 花 类 ， 每 类 40 至 258 KER ”文献 [31 
图 像 翻 译 必 须 解决 的 问题 。 13 人 类 手绘 草图 模仿 困难 
11 手绘 草图 抽象 且 多 样 化 前 公开 数据 集中 成 对 的 草图 图 像 数 据 较 少 ， 一 些 研 究 
手绘 草图 是 一 种 生动 的 数据 形式 ， 简 洁 抽象 ， 而 自然 图 ERMA TABES 裤 ， 通 常 此 类 方法 的 草图 图 像 翻译 


像 像 素 密集 ， 二 者 有 着 本 质 的 区 别 。 首 先 ， 手 绘 草图 是 抽象 ”效果 较 好 ， 然 而 人 工 绘制 草图 的 成 本 比较 高 ， 并 不 适用 于 大 
的 ， 笔 画 稀 琉 ， 色 彩 单一 ， 非 专业 绘画 人 士 一 般 会 用 比较 少 ”规模 的 草图 数据 集 生成 。 为 此 ， 研 究 人 员 提 出 各 种 方法 来 扩 
的 笔画 描绘 事物 ， 其 次 ， 草 图 是 多 样 化 的 ， 不 同 的 人 有 不 同 。” 充 草 图 数据 ， 然 后 使 用 扩充 的 草图 和 图 像 进行 训练 ， 如 表 2 
的 绘画 风格 ， 如 图 3 所 示 ， 针 对 同一 双 鞋 子 不 同人 绘制 的 草 ” ”所 示 。 扩 充 草图 的 方法 可 分 为 三 类 : 提取 真实 图 像 的 边缘 图 
图 完全 不 同 ; 最 后 ， 手 绘 草图 通常 带 有 一 些 见 余 和 喷 杂 的 笔 EAER, 如 使 用 整体 嵌 套 边缘 检测 (HED)P3、XDoGE” 边缘 
触 ， 从 而 使 得 草图 带 有 一 定 的 噪声 。 检测 器 、FDoGB3 过 滤器 等 , 此 类 方法 获得 的 草图 细节 依赖 于 

手绘 草图 与 图 像 属于 不 同 的 数据 域 ， 手 绘 草图 图 像 翻译 BEKA; 使 用 图 像 草 图 翻译 网 络 生成 草图 , 如 Im2pencilP9), 
是 跨 域 模 态 转换 问题 ， 而 一 般 的 图 像 到 图 像 翻译 是 单 模 态 任 ”PhotosketchingB7, 此 类 方法 生成 的 草图 能 够 很 好 的 捕捉 目标 
务 ， 并 且 在 翻译 过 程 中 结合 了 像素 对 应 上 类 似 的 硬 条 件 ， 这 轮廓， 甚至 精细 描绘 ， 但 不 能 模仿 普通 用 户 的 稀疏 抽象 的 手 
使 得 输出 与 输入 边缘 严格 对 齐 。 与 一 般 图 像 翻译 相 比 ， 手 绘 BEA, 抽象 笔画 来 模仿 手绘 草图 ， 如 对 边缘 图 的 笔画 进行 
草图 图 像 翻译 有 其 自身 的 特点 。 首 先 ， 手 绘 草图 笔画 未 与 对 随机 变形 或 者 简化 线条 以 去 除 重复 、 濠 草 的 边 ， 这 类 方法 对 
象 边界 精确 对 齐 且 颜色 单调 ， 因 此 转换 过 程 中 需要 矫正 笔画 原 有 的 线条 笔画 做 比较 小 的 改动 。 总 的 来 说 ， 目 前 已 有 的 草 
形变 和 上 色 。 其 次 ,草图 不 包含 关于 背景 和 细节 的 更 多 信息 ， 图 扩充 方法 或 者 直接 提取 边缘 图 作为 草图 ， 或 者 利用 草图 翻 
姑 此 生成 模型 必须 自己 插入 更 多 信息 。 最 后 , 草图 笔画 包含 ， 译 网 络 生成 草图 ， 然 而 这 些 草图 不 能 模拟 新 手 用 户 稀 玻 的 笔 
的 细节 特征 , 模型 必须 学 会 处 理 它们 , 例如 图 3 名 中 草图 笔画 画 ， 研 究 新 的 草图 扩充 方法 或 者 提升 模型 到 手绘 草图 的 泛 化 
描绘 的 鞋子 表面 上 的 金属 装饰 。 能 力 是 草图 图 像 翻译 的 重点 问题 之 一 。 
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2 草图 扩充 方法 
Tab.2 Methods of sketchy database augmentation 


类 别 草图 扩充 方法 特点 代表 工作 
me UU. ERHIELTEN LION me 
缺点 ， 与 对 象 边界 精确 对 齐 ， 包 含 太 多 背景 信息 
优点 ， 可 以 减少 边缘 过 多 的 细节 笔画 
= S 等 _ K[1]. [38 
ae Bus RATE HUNE ee He RAR nM 
优点 ， 边 界 清风 

XDoGP4 边 缘 检测 器 is]. [18 
db me 缺点 ,包含 一 定 的 细节 笔画 ， 与 对 象 边 界 对 齐 am 


优点 : 能 够 提取 比较 完整 的 边界 信息 


Photoshop 影印 B9 文献 [5]、[11]、[16]、[18] 


提取 真实 图 像 缺点 笔画 不 够 连续 ， 包 含 比较 多 的 阴影 细节 信息 
边缘 作为 草图 优点 ， 轮廓 信息 明显 

FDoGB35 过 滤器 并 献 [11 

pere 缺点 ， 包 含 一 定 的 细节 阴影 和 笔画 ， 与 边界 对 齐 ani! 


优点 ， 不 与 对 象 边界 精确 对 齐 
— "—— 
IER 缺点 ， 只 包含 语义 图 的 边界 线条 Sl 


JE. Belg Hed c= ir EH SE fe ey fs 
Sketch master 优点 : 能 够 E se RE DA HEH en HE 文献 [41 
缺点 : 包含 过 多 的 细节 阴影 与 对 象 边 界 对 齐 

优点 : 可 以 提取 服饰 图 案 和 饰品 的 边缘 
EFA X88 X EI] 3 eine) 献 [3 
于 离散 H 通道 的 边缘 检测 侠 点 ， 与 对 象 边 界 精确 对 齐 文献 [38 


euh. a Bly dos oec V EE Et SS 48 QS EI 
Im2pencilBg 优点 : UTERE EROR a B 文献 [42 
缺点 ， 不 能 模仿 笔画 稀 玻 且 变 形 的 草图 
优点 ， 笔画 稀 琉 日 有 一定 的 变形 
MH ne "Tp CN 
优点 ， 可 以 生成 10 种 不 同 风格 的 草图 
监督 草图 生成 网 络 TOM CRD 
4 "i 缺点 ， 轮 廊 笔 画 变形 不 是 很 大 ， 部 分 线条 不 连贯 am 
— 优点 ， 可 以 模仿 人 类 草图 不 与 对 象 边界 对 齐 — 
4 缺点 ， 与 人 类 手绘 草图 的 笔画 风格 有 -一定 差距 | 
[px H. + Z TH Nd " [AS 人 y EA e 
T (LA. MODA, RARE OAT A ncs pr. py, pg 
Gees Sus. 部 分 线条 不 连 员 
优点 :能够 实现 笔画 一 定 变形 的 手绘 草图 风格 


zl L3 变形 eos 献 [31 
Ea TERN 缺点 ， 不 能 模仿 笔画 过 于 夸张 变形 的 草图 AE 
优点 ， 可 以 生成 手绘 风格 的 笔触 


ELA A E A5 Tp DI A B "n 
THU AK EC UP WS m ks. EERE, k 文献 [46 


— ee 成 模型 通常 无 法 用 于 草图 图 像 生成 ， 因 为 草图 和 图 像 之 间 的 
2 ÆT GAN 的 草图 图 像 翻 译 方法 域 差距 很 大 ， 无 法 直接 在 视觉 空间 中 进行 逐 像素 对 齐 。 
草图 图 像 翻译 的 目标 是 学 习 草图 到 图 像 的 跨 域 图 像 映射 ， “Pix2pixHDsl 也 是 图 像 到 图 像 的 转换 方法 ， 可 以 生成 分 辩 率 
根据 对 生成 图 像 的 控制 程度 ,可 将 已 有 的 研究 工作 分 成 两 类 :为 2048x1024 的 图 像 ， 但 它 同样 不 能 处 理 手绘 草图 问题 。 

一 类 是 无 控制 的 草图 图 像 翻译 ， 目 前 大 部 分 方法 是 利用 配对 手绘 草图 作为 一 种 通用 的 表达 方式 ， 其 所 描绘 的 内 容 包 
数据 或 未 配对 数据 的 条 件 生成 对 抗 网 络 (CGANJLI 解 决 问题 。 罗 万 象 。 根 据 草图 翻译 生成 的 图 像 对 象 可 以 分 为 生成 多 类 别 
另 一 类 是 精细 控制 的 草图 图 像 翻译 ， 从 草图 到 图 像 的 映射 本 ”的 图 像 、 生 成 发 型 人 脸 和 生成 场景 级 图 像 ， 下 面 分 别 对 这 三 
质 上 是 多 模 态 的 ， 为 了 实现 对 输出 进行 精细 控制 ， 研 究 人 员 ”类 方法 进行 具体 介绍 。 


Kus 


提出 了 使 用 属性 和 笔画 控制 输出 的 图 像 。 1) 生 成 多 类 别 的 图 像 
2.1 无 控制 的 草图 图 像 翻译 2018 Æ, James Hays 等 人 提出 了 SketchyGANILU， 它 训 


草图 到 图 像 翻 译 旨 在 学 习 两 个 不 同 图 像 域 之 间 的 转换 。 练 以 草图 图 像 对 的 类 标签 为 条 件 的 编码 器 -解码 器 模型 , 是 一 
按照 训练 方式 的 不 同 ， 一 般 的 草图 图 像 翻译 可 以 分 为 基于 监 种 基于 GAN 的 端 到 端的 多 模 态 合成 方法 ， 可 以 生成 马 、 沙 
督 的 方法 和 无 监督 的 方法 两 类 ， 如 表 3 所 示 。 通 用 的 图 像 翻 发 、 摩 托 车 等 50 个 类 别 的 对 象 。 在 生成 器 和 判别 器 使 用 屏蔽 
译 框架 要 求 成 对 的 草图 和 图 像 ， 使 用 条 件 GAN 对 配对 图 像 ”剩余 单元 CMRU) 块 来 代替 卷 积 层 ， 通 过 掩 码 输入 不 同比 例 的 
进行 一 对 一 映射 ,此 为 监督 学 习 的 方法 。 无 监督 的 基于 GAN 图 像 金字 塔 提 取 特 征 。 同 时 为 了 鼓励 生成 图 像 的 多 样 性 ， 作 
的 草图 图 像 翻译 方法 使 用 一 对 GAN 将 图 像 从 源 域 映射 到 者 提出 一 种 多 样 性 损失 ， 最 大 化 具有 不 同 噪声 向 量 的 两 个 相 
标 域 ， 然 后 再 将 其 返回 到 源 域 ， 允 许 使 用 未 配对 的 数据 进行 司 输入 草图 的 输出 之 间 的 L1 距离 。 同 年 ，YongyiLu 等 人 提 
训练 。 出 了 另 一 种 解决 方案 , ContextualGANID。 


也 把 草图 到 图 像 转 
2.1.1 基于 草图 监督 的 方法 换 问 题 ， 转 换 成 草图 作为 上 下 文弱 约束 的 图 像 补 全 问题 。 通 


Pix2pix[ 是 一 个 通用 的 图 像 翻译 框架 ， 常 被 用 来 作为 基 ”过 使 用 联合 图 像 来 学 习 草图 和 相应 图 像 的 联合 分 布 ， 避 免 跨 
线 对 比 。 但 它 不 是 专门 针对 草图 设计 的 ， 只 有 专业 的 写实 志 域 学 习 中 的 复杂 问题 ,这 种 方法 也 可 用 于 图 像 到 草图 的 生成 。 
图 甚至 边缘 图 作为 输入 时 才能 产生 合理 的 结果 ， 其 翻译 过 程 。 文献 [29] 提 出 了 从 草图 到 边缘 图 再 到 图 像 的 两 阶段 草图 图 像 
是 推断 笔画 之 间 缺 失 的 纹理 或 阴影 信息 ， 因 此 当 使 用 稀 疏 的 ”翻译 模型 ， 通 过 引入 特征 间 相 关 性 学 习 可 以 使 模型 在 无 类 另 
手绘 草图 作 条 件 时 ， 网 络 不 能 产生 很 好 的 结果 。 图 像 到 图 像 ” 标签 下 生成 与 类 别 一 致 的 图 像 。 为 了 帮助 新 手 用 户 创建 草图 


= 
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对 象 ，Arnab Ghosh 等 人 
互 式 GAN 的 草图 到 图 
的 类 调节 方法 从 单个 生成 器 
杯 蛋 糕 等 10 类 图 像 。 当 | 


JP BUT 


王建 欣 ， 


是 出 了 iSketchNFill[ 1。 它 是 基于 交 
像 的 翻译 系统 ， 引 入 了 
网 络 生成 篮 


种 基于 门 控 
ER. OSA. DET. AK 
需 对 象 类 型 的 草图 时 ， 系 


统 会 自动 推荐 笔画 反馈 给 用 
进行 纹 理 填 充 。 它 由 基于 


EKI 


像 生 


户 帮 助 其 完成 草图 ， 


根据 类 条 
成 网 络 的 形状 完成 阶段 的 


f 
和 基于 MUNIT 
段 组 成 ， 可 以 生成 256x256 


以 上 三 种 方法 都 提出 了 不 同 


DREW E 


50 的 编码 器 -解码 器 模型 的 类 条 件 外 观 转换 阶 


[| 


像 。 


扩充 的 草图 更 加 接近 于 真实 


总 的 来 说 ,生成 多 类 别 的 图 像 往往 需要 大 量 的 训练 数据 ， 
的 草图 数据 扩充 办 法 。 但 是 他 们 
图 像 的 边缘 图 ， 当 使 用 稀疏 抽象 
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yi - ds — : NA 
“Sees CS S 
PEE A 
wama > 
(i J 
~ pi j 
Edge —+ Output Real Sketch =—+ Output 
图 4 使 用 边缘 图 模拟 草图 与 真实 草图 到 图 像 翻译 效果 对 比 


的 真实 人 类 手绘 草图 时 往往 不 能 生成 合理 的 图 像 ， 如 图 4DU Fig.4 Comparison of the effect of sketch to image translation 
所 示 。 此 外 ， 生 成 图 像 的 分 辩 率 较 低 ， 如 SketchyGANU H fe using edge maps and freehand sketches 
#3 无 控制 的 草图 图 像 翻 译 方法 
Tab.3 Methods of uncontrolled sketch to image translation 
训练 方式 ”代表 工作 主题 图 像 分 辩 率 村 点 
优点 : 多 尺度 输入 ， 提 出 了 新 的 数据 增强 技术 
SketchyGANU! 马 、 沙 发 等 50 个 类 64x64 
id Rd 缺点 ， 分辨 率 低 ， 不 够 真实 或 忠实 于 草图 
优点 : 使 用 联合 图 像 来 学 习 草图 和 相应 图 像 的 联合 分 布 
C IGAN!" SG. SARA 64x128 
sc Aem 缺点 ， 对 人 脸 草 图 忠诚 度 较 低 ， 分 辩 率 低 
优点 ， 两 阶段 的 草图 图 像 生成 模型 ， 能 够 生成 多 种 类 别 的 图 像 
RL 29 E 91 JE 等 14 个 256x256 
OE 缺点 ， 生 成 的 图 像 不 够 真实 ， 部 分 类 别 不 能 生成 符合 草图 的 图 像 
iSketchNFill! 篮球 、 饼 干 等 10 类 256x256 eee 1 — 
缺点 ， 分 关 率 较 低 ， 数 据 集 大 部 分 为 圆 形 
— m — 优点 设计 自 增强 模块 生成 纹理 细 到 的 发 型 ， 
缺点 ， 不 能 生成 辫子 等 复杂 的 发 型 ， 生 成 的 发 型 不 够 真实 
优点 : 将 跨 领域 转换 问题 解 耦 为 两 步 ， 笔 画 校准 和 图 像 合成 
Cali-Sketch!!*! fy 256x256 
SE An 缺点 ; 训练 数据 集 小 ， 不 能 泛 化 到 笔画 抽象 的 草图 
256x256 优点 :增加 隐 码 向 量 实现 多 模 态 输出 
监督 文献 [41 EN S. 8. BE 
XERA PAA E ie 缺点 ， 数据 集 小 ， 扩 充 的 草图 接近 边缘 图 ， 模 型 参数 多 
点 ， 利 用 流 形 投影 来 提高 手绘 草图 的 生成 质量 和 鲁 
ENT i "em 优点 ， 利 用 流 形 投影 来 提高 手绘 齐 图 的 生成 质量 和 重 枯 作 
缺点 ， 不 能 修复 组 件 布局 中 的 错误 ， 无 颜色 控制 
优点 ， 设计 SAP 自 适应 地 处 理 失 真 的 笔画 
DeepFacePencil!?"! o 256x256 
d M EE AE 缺点 ; 分 辩 率 低 ， 对 新 手 画家 草图 生成 效果 不 够 真实 
Ph. hv FH SEE AT. ap l S 图 Nit 
sp" 355 512x512 。 优点 :可 应 用 到 多 种 图 像 翻译 任务 中 ， 实 现 人 脸 侧面 草图 图 像 翻译 
缺点 ， 依赖 于 预 训练 的 生成 模型 
(—" cee 256x256 IT: UUADREDIERIT ARES, SUA HL HE BES LEUR 
缺点 ， 数据 集 有 偏差 ， 抽 象 的 草图 不 能 分 害 
优点 ， 变形 边缘 图 模拟 草图 ， 使 用 第 二 层 GAN 网 络 丰 富 纹理 特征 
[31 iti Jti 256x256 
TN] Sed 缺点 ， 无 法 将 专 张 的 变形 笔画 转换 为 真实 感 的 图 像 
优点 ; 提出 针对 民族 服饰 特点 的 边缘 检测 方法 和 草图 模拟 方法 
HR 38 Kj [ji 256x256 
SNMP RORIS 缺点 ， 数据 集 小 ， 部 分 生成 的 图 像 色 彩 细节 模糊 、 变 化 突 元 
点 ， 不 需要 成 对 的 训练 数据 ， 多 模 态 输出 
监督 US2P23] 生子 、 沙 发 128x128 
A Pere um 缺点 :图像 分 辩 率 低 ， 耗 费 算 力 
2) 生 成 发 型 人 脸 理 和 发 丝 。 
毛发 模拟 是 计算 机 图 形 学 的 一 个 非常 具有 挑战 性 的 研究 人 脸 相 关 问 题 一 直 都 是 计算 机 视觉 应 用 领域 研究 的 重点 ， 
课题 ， 因 为 它 往往 需要 对 数 十 万 根 毛发 进行 模拟 ， 同 时 要 考 ”如 人 脸 识别 、 人 脸 检测 等 。 同 样 在 生成 式 深度 学 习 的 各 项 任 
虑 毛发 之 间 的 运动 特性 和 相互 碰撞 。 随 着 生成 式 深度 学 习 的 。” 务 中 ， 合 成 人 脸 一 直 都 是 研究 人 员 关 注 的 热点 。Weihao Xia 
发 展 , 研究 人 员 将 目光 投放 在 基于 GAN 的 毛发 生成 。 HISP ”等 人 提出 了 Cali-Sketchtlal， 其 是 基于 草图 的 人 像 合 成 的 两 阶 
提出 了 基于 GAN 的 草图 到 发 型 转换 的 两 阶段 模型 ， 同 时 构 — 段 网 络 。 具 体 来 说 ， 第 一 阶段 笔画 校准 网 络 负责 将 输入 的 稀 
造 了 640 对 头发 面积 限制 在 512x512 以 内 的 高 分 辨 率 的 发 型 “， 玻 的 草图 转换 为 更 详细 和 校准 的 类 似 于 边缘 图 的 草图 。 第 二 
草图 图 像 数据 。 该 模型 能 够 输入 发 型 草图 或 者 低 分 辩 率 的 头 ”阶段 将 精制 的 草图 用 于 图 像 合成 网 络 ， 以 获得 逼真 的 肖像 图 
发 图 像 产生 逼真 头发 图 像 。 具 体 来 说 ， 首 先 将 发 型 草图 或 者 像 .文献 [41] 使 用 隐 码 向 量 来 实现 人 脸 图 像 多 模 态 的 输出 , 但 
低 分 辨 率 的 头发 图 像 应 用 Pix2pixD 框 架 生成 粗糙 的 发 型 图 ”是 图 像 分 辩 率 仅 为 64x64。 为 了 解决 过 度 拟 合 草图 的 问题 ， 
像 ， 然 后 将 粗糙 发 型 图 像 输 入 具有 自 增 强 能 力 的 再 生 网 络 生 “Lin Gao 等 人 提出 了 DeepFaceDrawing[51]， 能 够 生成 分 辩 率 为 
成 高 质量 的 结果 。 其 中 的 自 增强 能 力 是 作者 提出 的 结构 提取 — 512x512 的 逼真 图 像 。 其 实验 采用 高 清 人 脸 数据 集 ， 并 通过 
层 ， 从 头发 图 像 中 提取 纹理 和 方向 图 ， 从 而 生成 更 精细 的 纹 WARENA PS 影印 B9] 加 笔画 简化 [4 的 方法 扩充 草图 。 为 了 
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录用 定稿 王建 次 ， 等 : 基于 GAN 的 手绘 草图 图 像 翻 译 研 究 综 第 39 卷 第 8 期 
从 粗糙 稀 朴 的 或 不 完整 的 草图 也 能 够 生成 高 质量 的 面部 图 像 ， US2PP9 是 采用 不 成 对 的 草图 图 像 数 据 的 两 阶段 无 监督 
作者 将 扩充 的 草图 作为 软 约束 ,具体 是 采用 局 部 到 全 局 方法 ， 模型 ， 同 时 可 以 生成 多 样 化 的 逼真 的 图 像 。 首 先 通过 循环 
将 人 脸 分 为 左 眼 、 右 眼 、 鼻 子 、 嘴 和 面部 剩余 五 个 关键 人 脸 致 性 损失 5 的 监督 将 输入 草图 转换 为 灰 度 图 像 ， 然 后 利用 单 
组 件 部 分 ， 学 习 这 些 组 件 的 特征 蔡 入 。 然 后 训练 深度 神经 网 独 的 GAN 模型 进行 基于 样本 的 着 色 ， 下 面具 体 介 绍 这 两 个 
络 将 嵌入 的 组 件 特征 映射 到 逼真 的 图 像 ， 同 时 使 用 流 形 投影 阶段 。 
来 提高 手绘 草图 的 生成 质量 和 重 棒 性 。Yuhang Li 等 人 提出 第 一 阶段 进行 形状 翻译 ， 用 来 处 理 草图 的 空间 形变 ， 包 
了 另 一 种 解决 方案 , DeepFacePencilP?l, 它 使 用 一 个 名 为 空间 括 抽象 线条 和 多 变 的 绘画 风格 。 此 阶段 使 用 的 数据 是 未 配对 
注意 力 池 (SAP) 的 模块 ,可 以 自 适 应 地 调整 生成 图 像 的 真实 性 的 草图 和 灰 度 图 ， 包 括 草 图 到 灰 度 图 和 灰 度 图 到 草图 两 对 映 
和 生成 图 像 与 输入 草图 之 间 的 一 致 性 之 间 的 空间 变化 平衡 。 射 , 使 用 循环 一 致 性 损失 监督 , 类似 于 CycleGAN553] 的 模型 。 
其 网 络 使 用 双生 成 器 框架 , 来 促进 SAP 感知 局 部 不 够 真实 完 针对 草图 的 特殊 性 ， 存 在 密集 的 无 用 笔画 或 者 细节 噪声 而 引 
美的 笔画 ， 并 将 合成 的 面部 区 域 从 不 完美 的 笔画 修正 为 逼真 入 了 自 监督 和 注意 力 模 块 。 自 监督 模块 用 来 将 噪声 草图 恢复 
的 图 像 域 .pSpP3 是 一 个 通用 的 图 像 翻 译 框架 , 它 将 编码 器 与 成 原始 的 干净 草图 , 如 图 SP5 所 示 。 由 于 草图 空白 的 区 域 大 ， 
StyleGAN26521 解 码 器 相 结合 ， 可 应 用 于 草图 到 图 像 的 转换 ， 使 用 注意 力 模 块 来 重新 加 权 注 意 力 图 来 抑制 激活 密集 笔画 区 
且 能 够 实现 多 样 化 的 输出 ， 不 止 生成 正面 人 脸 图 像 。 但 是 草 域 ， 进 而 忽略 噪声 干 捧 ， 如 图 629 所 示 。 第 二 阶段 称 为 内 容 
图 几何 被 编码 在 潜在 代码 中 ， 由 pSp22 生 成 的 人 脸 通常 不 会 丰富 ， 网 络 将 灰 度 图 生成 包含 细节 的 彩色 图 像 。 此 阶段 使 用 
忠实 地 尊重 输入 草图 ， 它 采用 的 风格 混合 操作 也 会 不 利 地 影 配对 的 灰 度 图 和 图 像 进行 训练 可 以 提供 参考 图 像 作为 样式 指 
响 合 成 真实 几何 形状 的 面部 。 导 ， 并 遵循 AdaIN65 通 过 调整 特征 图 来 使 输出 多 样 化 。 
总 的 来 说 ， 目 前 绝 大 部 分 工作 是 生成 正面 人 脸 图 像 ， 利 由 于 形状 转换 网 络 是 双向 的 ， 从 草图 转换 为 灰 度 图 和 从 
用 人 脸 的 固定 结构 可 以 生成 高 质量 的 图 像 。 未 来 ， 探 索 其 他 灰 度 图 转换 为 草图 ， 所 以 US2PP8 可 以 将 图 像 转换 为 草图 ， 
属性 比如 头 部 姿势 和 照明 ， 如 何 克 服 草图 语义 的 模糊 性 生成 还 可 以 应 用 到 基于 草图 的 无 监督 检索 。 总体 上 来 说 ，US2PP8 
准确 的 头发 、 背 景 、 颈 部 等 的 边界 是 挑战 性 的 工作 。 只 关注 鞋 和 沙发 两 类 数据 ， 且 草图 数据 量 较 少 ， 生 成 的 图 像 
3) 生 成 场景 级 图 像 分 辩 率 仅 为 128x128。 由 于 成 对 的 手绘 草图 图 像 很 难 获得 ， 
与 单个 对 象 的 图 像 不 同 ， 场 景 级 的 图 像 结 构 复杂 ， 涉 及 未 来 ， 突 破 循环 一 致 性 损失 的 瓶颈 ， 探 索 更 先进 的 无 监督 方 
多 个 对 象 和 复杂 的 背景 关系 。 为 此 ，Chengying Gao 等 人 提出 法 是 解决 草图 图 像 翻译 难点 
了 SketchyCOCOM!, 专注 于 从 手绘 草图 生成 整个 场景 的 图 像 。 
由 于 草图 绘制 的 粗糙 程度 不 同 ， 它 将 草图 分 为 前 景 和 背景 两 
部 分 顺序 生成 图 像 。 前 景 是 指 论文 数据 集中 的 应 、 斑 马 、 大 
象 等 动物 ， 背 景 是 指 草 地 、 蓝 和 天、 树木 等 。 前 景 生 成 目的 是 BN 
尽 可 能 符合 用 户 的 要 求 ， 背 景 部 分 生成 与 草图 对 齐 。 针 对 前 一 
景 草图 的 抽象 性 和 差异 性 ， 作 者 设计 了 新 的 神经 网 络 算法 
EdgeGAN, 在 训练 阶段 不 需要 成 对 的 手绘 草图 和 图 像 而 仅 使 
用 图 像 以 及 对 应 的 边缘 图 。 具 体 做 法 是 将 前 景 和 对 应 的 边缘 < 
图 输入 网 络 ， 学 习 图 像 和 边缘 图 的 公共 属性 向 量 表示 ， 最 后 — m 
通过 输入 草图 的 属性 向 量 映射 到 对 应 的 图 像 。 背 景 部 分 的 图 
像 生 成 则 用 Pix2pix[ 架 构 完 成 ， 把 生成 的 前 景 图 像 和 背景 草 , 
图 一 起 送 给 网 络 可 以 生成 分 辨 率 为 128x128 和 256x256 的 场 J ad 
景 级 图 像 。 
草图 到 场景 级 图 像 的 合成 工作 比较 少 ， 现 有 的 工作 生成 
的 图 像 分 辩 率 较 低 。 对 于 数据 集 构 建 的 相关 技术 问题 ， 依 赖 
于 更 先进 的 草图 分 割 技术 来 处 理 抽 象 的 草图 。 图 5 自 监督 模块 去 噪 
此 外 , 文献 [31] 使 用 双 层 级 联 的 GAN 网 络 来 生成 分 辨 率 Fig.5 Denoising by self-supervision 
更 高 纹理 丰富 的 图 像 ， 可 以 生成 猫 类 、 花 开 类 图 像 。 针 对 手 
绘 草图 稀缺 的 问题 ， 作 者 提出 了 移动 最 小 二 乘 的 策略 来 对 提 oD 
HIT Ue Ee UE A AST HAL HARI RBS] PS P 
专注 于 中 国 少数 民族 服饰 的 草图 图 像 翻 译 ， 针 对 服饰 特点 设 
计 服 饰 图 案 轮廓 提取 方法 ， 并 根据 草图 风格 的 特点 对 边缘 图 m sd 
处 理 以 模仿 草图 。 总 的 来 说 ， 以 上 两 种 方法 生成 的 图 像 还 不 EN 
够 真实 ， 无 法 处 理 带 有 密集 笔画 或 者 夸张 线条 的 草图 。 一 


2.1.2 基于 草图 无 监督 的 研究 方法 

人 ee a N 
系列 无 监督 的 方法 来 实现 图 像 翻译 ,在 通用 的 图 像 翻 译 领域 ， 
CycleGANG31 是 基于 无 监督 的 图 像 翻译 方法 ， 之 后 MUNTTEaI 
将 图 像 数 据 分 为 内 容 部 分 和 风格 部 分 ， 从 不 同 的 数据 空间 采 
样 进行 重 构 实现 图 像 域 之 间 的 多 对 多 映射 ; U-GAT-ITP4 2 HH 
一 个 注意 力 模块 引导 注意 力图 区 分 源 域 和 目标 域 , AdaLIN K 
数 引 导 模 型 更 加 灵活 地 控制 形状 和 纹理 的 变化 。 以 上 方法 都 
不 是 专门 针对 草图 图 像 翻 译 的 方法 ， 无 法 有 效 处 理 稀 玻 的 几 
何 变形 的 人 类 手绘 草图 。 
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表 4 精细 控制 的 草图 图 像 翻译 方法 


Tab.4 Methods of finely controled sketch to image translation 


代表 性 工作 主题 ”图 像 分 辨 率 交互 性 ”交互 方式 精细 控制 风格 化 算法 特点 
整合 矢量 场 ， 转 毛发 结构 和 颜色 属 = = 
BHS!) ZAA 512x512 Æ ü A 导 生 成 面部 毛发 ， 具 有 交互 能 
发 型 胡须 痪 为 引导 笔划 m 是 笔画 引导 生成 面部 毛发 ， 具 有 交互 角 
参考 模式 和 绘制 形状 、 结 构 、 方向 图 来 实现 结构 控制 ， 头 发 X 
Mi ANI Xm see = 参考 模式 和 绘制 形状 、 结 构 、 外 观 " 使 用 方向 图 来 实现 nee 头发 外 观 作为 
模式 和 背景 属性 解 耦 一 个 风格 转移 问题 
自动 完成 重复 的 彩色 草图 指定 发 型 


彩色 笔画 引导 发 型 颜色 ， 采 用 带 有 自 注 意 力 
模块 的 编码 器 -解码 器 生成 器 59% 来 忠实 于 草图 


SketchHairSalon?! ”发 型 512x512. 有 未 编织 笔画 、 给 的 形状 、 结 构 和 外 X 
定编 织 结 观 
草图 编辑 ， 给 定 


DeepFaceEditingtq 人 脸 。 512x512 。 有 SEMA Larabee e MR BUI RDA 
He 共享 空间 、 全 局 融合 模块 
CMS a , 自 监 督 的 自 编码 器 AE57 生 成 草图 ， 动 最 0 
SSS2103 ee 1024x1024 无 无 内 容 和 风格 解 籼 ”是 生息 最 小 化 更 好 的 解 厢 ， 改 进 DMI 
Sketch Your Own H.E oas 二 元 训 图 控制 形状 和 次 。 使 用 较 少 的 草图 他 建生 成 模型 ， 利 用 世 训 练 
Gant so » 的 生成 模型 ， 设 计 调整 模型 权重 来 匹配 草图 
2.2.1 图 像 属 性 控制 彩色 图 片 细节 ， 提 高 分 辩 率 和 合成 质量 。 首 先 使 用 合成 的 配 
图 像 属性 控制 是 指 将 需要 翻译 的 图 像 分 解 为 几 个 视觉 属 。 对 数据 ， 通 过 自 监督 的 自 编码 器 (AE)57 来 将 草图 和 RGB 图 
性 ， 对 每 一 个 属性 ， 设 计 相 应 的 模块 进行 控制 生成 图 像 。 其 。” 像 的 内 容 和 风格 特征 分 离 。 具 体 来 说 ， 先 把 图 片 进行 风格 编 
中 ， 图 像 的 纹理 风格 能 更 好 的 帮助 用 户 指定 期 望 的 目标 ， 为 。” 码 提取 风格 特征 ,然后 把 草图 进行 内 容 编码 提取 内 容 特 征 , 通 
此 ,研究 人 员 做 了 一 些 基于 范例 的 图 像 翻译 方法 的 研究 工作 。 ” 过 一 个 简单 的 风格 分 类 器 来 让 提取 后 的 风格 和 内 容 进一步 解 
基于 范例 的 图 像 翻译 是 指 将 图 像 (如 语义 分 割 图 、 人体 骨 看 ， 然 后 将 二 者 输入 给 生成 器 ， 将 草图 转换 为 图 片 。 再 把 转 
艇 关键 点 、 边 缘 图 等 ) 按 照 指定 风格 (颜色 、 纹 理 等 ) 参 考 图 像 。 换 后 的 图 片 经 过 另 一 个 生成 器 ,进一步 的 细 化 图 片 的 分 辩 率 
进行 图 像 翻译 。 网 络 接收 源 域 图 片 时 也 接收 一 张 与 其 具有 相 MR. 
以 语义 信息 的 目标 域 的 范例 图 片 ， 它 具有 用 户 期 望 的 目标 风 222 笔画 控 抽 
格 ， 网 络 将 这 两 个 图 像 同 时 作为 条 件 学 习 输出 符合 指定 风格 在 毛发 生成 方面 ， 研 究 人 员 认为 带 有 颜色 的 笔画 能 够 为 
的 图 片 。CoCosnettG 提 出 一 个 基于 范例 的 图 像 翻译 的 框架 ， 。 图 像 生 成 提供 属性 指导 。BHSE9 使 用 一 组 类 似 草图 的 “引导 
方法 是 建立 输入 图 及 范例 图 之 间 的 密集 语义 对 应 ， 以 此 定位 。 ”笔画 "来 描述 要 合成 的 头发 的 局 部 形状 和 颜色 , 同时 更 加 方便 
输入 图 在 范例 中 相应 位 置 的 颜色 和 纹理 信息 ， 使 生成 的 图 像 ” 交互 。 编 辑 一 个 提取 毛发 信息 的 矢量 场 ， 使 用 相对 较 少 的 用 


风格 与 范例 中 物体 对 应 ， 可 以 应 用 到 图 像 编 辑 和 人 脸 上 妆 。 户 输入 调整 发 型 的 整体 结构 ， 通 过 合成 的 引导 笔划 来 简单 地 
RBNetl6 利 用 参考 图 像 给 草图 或 者 边缘 图 上 色 。 此 外 ， 文 献 编辑 、 添 加 或 删除 单个 笔画 来 实现 最 终 图 像 形状 和 颜色 的 纪 
[59] 提 出 一 种 基于 艺术 风格 范例 的 草图 图 像 翻 译 方法 ， 可 以 微 局 部 变化 。Hongbo Fu 等 人 认为 彩色 头发 草图 已 经 隐 含 1 
生成 分 辨 率 为 512x512 高 质量 图 像 。 其 采用 的 是 目标 头发 形状 和 头发 外 观 信 息 ， 为 此 ， 作 者 提出 了 
SketchyGANI 中 的 数据 扩充 方法 构建 草图 ， 同 时 论文 中 展示 SketchHairSalon[g 一 个 新 络 的 网 络 框架 。 该 框架 可 以 直接 从 
了 网 络 也 可 以 生成 人 体 图 像 。 但 以 上 方法 都 不 是 针对 人 类 手 一 组 彩色 笔画 合成 512x512 分 辩 率 的 允 真 涉 发 图 像 ， 它 由 使 
绘 草图 生成 真实 图 像 的 方法 。 用 了 自 注意 力 模块 的 草图 到 亚 光 (S2M-Net) 生 成 和 草图 到 
为 了 实现 可 控 的 头发 操作 ，MichiGANU5 提 出 了 交互 式 像 (S2I-Net) 生 成 两 部 分 网 络 组 成 。 同 时 为 了 训练 网 络 ， 作 者 
人 像 头 发 图 像 生 成 方法 ， 专 为 以 解 耦 属 性 (包括 形状 、 结 构 、 构建 了 一 个 新 数据 集 ， 包 含 数 干 个 带 人 工 注 释 的 头发 草图 图 
外 观 和 背景 ) 为 条 件 的 肖像 照片 生成 逼真 的 头发 图 像 。 其 交互 像 对 和 相应 的 头发 让 日。 其 设计 界面 如 图 2 所 示 ， 包 括 头 发 
式 系 统 还 可 以 通过 参考 人 像 或 者 绘画 对 图 像 进行 局 部 和 细 结构 定制 、 头 发 形状 优化 、 头 发 的 外 观 定制 、 自 动 完成 草图 
的 编辑 。 文 献 [46] 也 是 一 种 交互 式 方法 可 以 合成 图 像 中 头 等 功能 。 由 于 训练 高 质量 的 生成 模型 需要 大 规模 的 数据 集 和 
和 胡须 。DeepFaceEditing09 是 Lin Gao 等 人 的 最 新 成 果 ， 高 性 能 的 计算 平台 , 且 训 练 耗 时 通常 较 长 。 文献 [60] 提 出 了 一 
一 种 专 为 人 脸 图 像 设 计 的 结构 化 解 缠 框 架 ， 通 过 几何 和 尹 种 用 少量 草图 示例 定制 生成 模型 的 方法 ， 利 用 在 大 规模 数据 
的 解 缠 控 制 来 实现 人 脸 生 成 和 编辑 。 有 具体 做 法 是 采用 局 部 上 预先 训练 的 现成 生成 模型 ， 通 过 草图 来 指定 对 象 的 形状 和 
全 局 的 方法 来 合并 人 脸 ， 局 部 组 件 图 像 被 分 解 为 几何 和 儿 姿势 ， 同 时 保持 真实 性 和 多 样 性 。 其 原理 是 设计 一 种 跨 域 模 
表示 ， 最 后 在 对 其 进行 全 局 融合 ， 最 终生 成 高 质量 的 图 像 。 型 微调 的 方法 来 调整 模型 权重 的 子 集 以 匹配 用 户 草 图 ， 使 新 
它 的 原理 是 利用 草图 提取 几何 表示 ， 因 此 支持 通过 草图 编辑 模型 创建 类 似 于 用 户 草图 的 图 像 ， 同 时 保留 预 训 练 模型 的 颜 
人 脸 图 像 。 由 此 产生 的 方法 既 可 以 从 人 脸 图 像 中 提取 几何 和 色 、 纹 理 和 细节 。 
外 观 表 示 , 也 可 以 直接 从 人 脸 草 图 中 提取 几何 表示 。Bingchen 前 的 工作 主要 是 对 毛发 和 人 脸 两 个 任务 做 精细 控制 ， 
Liu 等 人 提出 了 SSS2I23， 是 一 种 基于 范例 的 带 有 手绘 草图 算法 针对 性 强 ， 不 适用 于 其 他 任务 的 草图 图 像 翻译 控制 。 尤 
的 图 像 合 成 方法 。 为 解决 成 对 手绘 草图 图 像 的 缺失 问题 ， 作 其 在 艺术 设计 领域 ， 精 细 的 控制 生成 的 图 像 或 者 图 像 编辑 能 
者 提出 一 种 基于 GAN 的 域 转移 无 监督 模型 TOM。 模 型 将 草 够 辅助 设计 师 进行 设计 ， 具 有 非常 好 的 商业 价值 ， 同 时 也 非 
图 合成 视 为 由 RGB KHAR R 映射 到 线 草图 域 $ 图 像 域 转移 常 具有 挑战 性 ， 是 未 来 很 有 前 景 的 研究 方向 。 
问题 ， 通 过 在 线 特征 匹配 为 每 个 图 像 合 成 多 个 草图 。 以 风格 3 ”结果 评 
$f) EE 、 Jp . ^. 结果 评估 
范例 为 导向 的 草图 到 图 像 生 成 主要 由 两 部 分 组 成 ， 第 一 阶段 
把 草图 转换 为 彩色 图 像 ， 第 二 阶段 使 用 对 抗 网 络 进一步 细 化 评估 生成 模型 的 性 能 是 一 项 复杂 的 任务 ， 由 于 一 些 定量 
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指标 缺乏 与 人 类 感知 的 一 致 性 [31]， 许 多 研究 工作 仍然 依赖 于 性 能 。 形 状 相 似 度 L2 Gabor feature[61 和 结构 相似 性 度量 
定性 的 人 工 评价 评估 合成 图 像 的 质量 。 对 于 特定 任务 或 应 用 (SSIM)I61 是 用 于 评估 生成 的 图 像 和 真实 图 像 的 相似 度 的 一 
程序 ， 评 估 不 仅 应 基于 最 终 图 像 质量 ， 还 应 考虑 生成 的 图 像 种 度量 。 文 献 [5] 针 对 草图 生成 头发 使 用 绝对 差异 总 和 


与 条 件 输入 的 匹配 程度 ， 以 及 服务 于 预期 应 用 程序 或 任务 。 (SAD)IG8I 以 评估 头发 磨砂 生成 的 准确 性 ， 同 时 使 用 联合 交集 
基于 GAN 的 手绘 草图 图 像 翻译 的 结 吉 果 评估 主要 包含 定性 评 。 (IoU) 对 生成 的 遮 畦 和 地 面 实况 进行 阔 值 处 理 来 评估 边界 区 
估 和 定量 评估 两 类 ， 如 表 5 所 示 。 域 的 准确 性 。 

a) 定性 评估 。 常 用 的 定性 评估 有 感知 研究 、 可 用 性 研究 、 部 分 评估 指标 展示 了 有 效 性 ， 但 是 不 同 的 评估 方法 适合 
泛 化 能 力 比 较 、 消 融 研 究 和 与 先进 模型 比较 等 方法 。 感 知 研 于 不 同 的 模型 。 例如 Inception Score[9(GS) 评 估 图 像 有 局 限 性 ， 
究 是 邀请 一 些 没 有 受过 专业 绘画 训练 的 人 员 来 评价 生成 的 图 且 分 数 高 低 不 能 如 实 反 映 图 像 的 真实 度 。Fréchet Inception 


像 ， 通 常 以 在 线 问卷 的 形式 让 他 们 对 生成 的 图 像 进行 评估 ， Distance!™|(FID) A if fii Ej ImageNet 不 同 的 数据 , 但 它们 都 不 


然后 进行 投票 或 者 分 数 统计 。 可 用 性 研究 也 是 邀请 一 部 分 用 能 反映 过 拟 合 的 问题 。 SSIMI69J 在 图 像 去 噪 、 图像 相似 度 评价 
户 实地 体验 草图 翻译 系统 ， 然 后 填写 问卷 来 评估 可 用 性 和 有 方面 表现 较 好 ， 是 一 个 广泛 使 用 的 图 像 质量 评价 指标 。 
效 性 。 泛 化 能 力 比较 是 训练 好 模型 后 ， 使 用 稀疏 的 或 者 硅 张 4 结束语 
变形 的 没有 绘画 经 验 的 人 绘制 的 草图 测试 模型 生成 结果 ， 通 renee 
常 此 类 模型 训练 时 采用 的 数据 多 为 边缘 图 或 者 接近 边缘 图 的 基于 GAN 的 手绘 草图 图 像 翻 译 通过 手绘 草图 指定 合成 
专业 手绘 草图 。 以 上 的 定性 评估 方法 是 最 直接 最 有 效 的 评估 目标 ， 从 而 实现 可 控制 的 图 像 生成 。 在 实际 应 用 中 ， 可 以 根 
方式 ， 也 最 能 真实 的 反映 模型 生成 图 片 的 质量 。 据 特定 要 求生 成 图 像 。 本 文 首 先 分 析 了 手绘 草图 图 像 翻译 面 
表 5 草图 图 像 翻 译 评价 指标 临 的 挑战 ， 并 对 相关 工作 和 评价 指标 进行 了 总 结 和 分 析 。 
Tab. 5 Evaluation index of sketch to image translation 前 基于 GAN 的 手绘 草图 图 像 翻 译 已 有 一 些 研究 工作 ， 但 仍 
评估 方法 指标 AM 代表 工作 处 于 起 步 阶段 。 人 类 手绘 草图 复杂 多 变 , 描绘 对 象 干 变 万 化 ， 
真实 度 文献 [1]、[5]、 [16] 仍 有 很 多 有 价值 的 问题 或 待 解决 。 
感知 研究 忠诚 度 文献 [1]、[5]、 [16] a) 人 类 手绘 草图 数据 扩充 。 由 于 缺乏 草图 和 图 像 的 大 规 
然 度 文献 [6] 模 数 据 集 ， 收 集 手 绘 草图 又 非常 耗 时 。 而 且 针 对 不 同 描绘 对 
er 户 测试 系统 ， 有 SUELE RE R EURE E E hs A E FY 集 ， 需要 大 规模 的 数 
Pere 性 、 有 效 性 据 集训 练 模 型 。 现 有 的 数据 增强 方法 如 基于 全 图 的 HOEFE, 
sa 不 同 变形 程度 的 合 XD i 移 位 )， 或 者 笔画 变形 、 笔 画 加 粗 ， 都 没有 考虑 如 何 模仿 人 类 
成 草图 、 手 绘 草图 的 真实 绘画 风格 中 。 文 献 [23] 探 索 了 一 种 无 监督 的 方法 合成 
NE DRA 0 草图 ， 解 决 了 草图 数据 缺乏 的 问题 ， 但 其 合成 的 草图 更 类 似 
ici 效 性 Pele 于 专业 的 写实 风格 。 如 图 750 所 示 ， 采 用 合成 草图 训练 的 模 
与 先进 模 型 比较 ”对 比 模型 效果 文献 [1]、[5] 型 无 法 在 真实 草图 上 泛 化 ， 因 此 如 何 合成 模仿 人 类 多 种 真 仿 
FIDI4I 测量 分 布 相似 性 。 ”文献 [23]、[25] 绘画 风格 的 草图 , 并 缩小 合成 草图 和 真实 草图 之 间 的 域 差 距 50， 
风格 相关 性 SRIGl 衡量 颜色 和 纹理 的 文献 [23] AAA KL AEBS HE SURD S. 
一 致 性 
使 用 神经 网 络 评估 T 
mad 感知 相似 性 O = L) 4 | 
js。 计算 分 布 的 KL 散 文献 0 
定量 研究 度 等 
L2 Gabor featurel 评估 相似 度 文献 [25] UNT KE. 
SADIE 绝对 差异 总 和 文献 [5] ú 
评估 边界 区 域 准确 Fake Sketch —> Output Real Sketch —> Output 
IoU 文献 [5] 、 
性 图 7 合成 草图 与 真实 草图 到 图 像 翻 译 效果 对 比 
SSIMI69] 评估 相似 度 文献 [11]、[25] Fig.7 Comparison of sketch to image translation effect used by 
AMT 识别 真 假 文献 [42] synthetic sketches and freehand sketches 
b) 定量 评估 。 研 究 表明 ,， 仅 选择 一 种 指标 来 证 明 模 型 的 b) 精细 控制 生成 的 图 像 。 尽管 大 量 的 工作 支持 多 模 态 的 
eal 一 般 模 型 都 使 用 以 下 指标 的 组 合 来 更 草图 图 像 翻译 , 但 是 具体 纹理 、 颜 色 、 材 质 特征 等 很 难 控制 。 
有 效 地 衡量 其 性 能 。Fréchet Inception Distancel$^(FID) # P 2H. 基于 范例 的 草图 图 像 翻 译 可 以 通过 指定 单个 风格 范例 图 片 来 
之 间 的 分 布 相 my 并 作为 生成 图 像 的 多 样 性 和 质量 以 及 图 控制 生成 图 像 的 纹理 和 颜色 等 信息 。 未 来 ， 参 考 多 风格 范例 


像 与 草图 的 匹配 程度 的 度量 。 较 低 的 FID 表示 生成 数据 的 ”或 者 使 用 带 有 颜色 的 笔画 来 控制 生成 的 图 像 的 工作 更 具有 商 
分 布 更 接近 真实 样本 的 分 布 。 结 构 相 似 性 指数 度量 (SSIM) — 业 价 值 ， 比 如 可 以 减少 动画 、 电 影 和 视频 游戏 故事 板 中 的 重 
给 出 图 像 与 参考 图 像 的 相对 相似 性 分 数 ， 其 中 较 低 的 分 数 表 复工 作 。 在 艺术 设计 领域 ， 如 何 表 现 物体 的 材质 属性 而 不 单 
示 生 成 图 像 的 多 样 性 较 高 ( 即 模式 骨 误 较 少 )。 学 习 感 知 图 像 单 是 颜色 ， 从 而 更 好 的 辅助 设计 师 进行 创作 也 是 未 来 很 有 探 
块 相 似 性 (LPIPS)[6] 使 用 从 神经 网 络 中 学 习 到 的 深度 特征 来 索 价 值 的 方向 。 
评估 图 像 块 之 间 的 感知 相似 性 。Inception Scorel66(IS) 是 应 用 c) 草图 到 艺术 风格 图 像 生 成 。 目 前 ， 大 多 数 研 究 工 作 都 
在 ImageNet 数据 集 上 预 训练 的 Inception 模型 来 提取 生成 图 ”集中 在 从 草图 合成 逼真 的 自然 照片 图 像 ， 艺 术 图 像 与 其 他 类 
像 的 特征 , 并 计算 条 件 类 分 布 和 边缘 类 分 布 之 间 的 KL 散 度 ， 型 图 像 的 区 别 在 于 艺术 风格 的 多 样 性 ， 这 些 艺术 风格 会 影响 
更 高 的 IS 呈现 更 高 质量 的 生成 图 像 ,风格 相关 性 (SR)EH1 是 利 ”草图 如 何 合成 为 全 彩色 的 纹理 图 像 。 文 献 [59] 研 究 了 基于 草 

[A] 

某 些 


用 低级 感知 特征 的 距离 来 衡量 颜色 和 纹理 的 一 致 性 。 它 检查 艺术 风格 (例如 ， 印象派、 现实 主义 等 ) 图 像 合 成 , 局 限 是 
模型 与 输入 的 风格 一 致 性 ， 并 反映 模型 的 内 容 或 者 风格 分 离 “艺术 风格 的 特征 很 难 被 模型 学 习 ， 不 能 很 好 的 平衡 模型 
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从 草图 的 语义 特征 和 风格 参考 图 像 中 学 习 表示 。 将 草图 转换 
为 艺术 绘画 风格 的 图 像 为 推动 深度 神经 网 络 在 捕 提 和 翻译 各 
中 艺术 风格 方面 的 工作 作出 贡献 。 未 来 ， 此 项 工作 不 仅 可 以 
用 作 娱 乐 应 用 ， 能 够 让 用 户 体会 艺术 绘画 创作 的 乐趣 ， 提 升 
艺术 修养 ， 而 且 可 以 从 多 个 艺术 风格 合成 图 像 ， 辅 助 艺术 家 
行 创意 艺术 创作 。 
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